iT邦幫忙

data cleaning相關文章
共有 16 則文章
鐵人賽 IT管理 DAY 25

技術 Day 25 : 什麼是資料清洗 (Data Cleaning)?四個不可不知的清洗重點

什麼是資料清洗 (Data Cleaning)?四個不可不知的清洗重點 大家安安,今天要和大家聊聊什麼是資料清洗。 (Powered By Microsoft...

鐵人賽 AI & Data DAY 12
30天胡搞瞎搞學會pyspark 系列 第 12

技術 [ Day 12 ] - Pyspark | 清理 - 特殊資料型態篇 - Array : explode()

啊今天先來簡單介紹一下什麼事ArrayType()ArrayType()主要是將Array放入整個dataframe 中,然後Do Re Mi So你的Data...

鐵人賽 AI & Data DAY 10
30天胡搞瞎搞學會pyspark 系列 第 10

技術 [ Day 10 ] - Pyspark | 清理 - 字串篇-2.1 : 正規表示式科普( regular expression )

終於進入雙位數了我好感動,每日日更不存稿,讓我下定決心,以後要做這種奇奇怪怪的挑戰前,千萬要深思熟慮好好存稿,不然每天的內容都讓自己想哭好啦那還是來進入正題吧!...

鐵人賽 AI & Data DAY 9

技術 [ Day 9 ] - Pyspark | 清理 - 字串篇-1 - 切切切 : split(), substr()

昨天講完了如何處理timestamp()的時間格式該如何處理,今天就讓我們來看看,最大宗的部分,字串!講到字串,最常使用的就是大名鼎鼎的split(),subs...

鐵人賽 AI & Data DAY 8

技術 [ Day 8 ] - Pyspark | 清理 - 時間篇 - 2 Timestamp 轉換 : User Defined Function 的出現

在多數情況下,使用to_timestamp(),幾乎可以解決掉所有的時間轉換問題,但Data Cleaning 是永遠不會讓你好過的,那這時候可以怎麼做呢?這時...

鐵人賽 AI & Data DAY 7

技術 [ Day 7 ] - Pyspark | 清理 - 時間篇 - 1 : Timestamp 轉換 : to_timestamp()

各種各樣的轉換,時間今天是星期五,應該是容許水一天的吧 1. to_timestamp(col,format) 基本上就是針對日期格式做相對應的轉換! 詳細情...

鐵人賽 AI & Data DAY 6

技術 [ Day 6 ] - Pyspark | 介紹 - DataFrame篇 - Sample

在資料處理的領域,除了前幾天說的那些overview之外,了解了整個宏觀的資料集,我們還是會需要深入去確認資料的樣態,當資料集有排序性的時候,使用show(),...

鐵人賽 AI & Data DAY 5

技術 [ Day 5 ] - Pyspark | 介紹 - DataFrame篇 - Filter

過濾一些選擇,可以得到更好的資訊,或許也可以成為一個更好的人吧?就像你要找一個非常優秀的吹風機時,你也會在購物網站下一些特定的filter()讓你能夠更快速的選...

鐵人賽 AI & Data DAY 4

技術 [ Day 4 ] - Pyspark | 介紹 - DataFrame篇 - Select

21天可以養成一個好習慣, 但3天就可以放棄, 但我今天還是準時坐在這裡, 所以今天你的選擇是什麼呢?我們今天要來討論的是,選擇阿不是啦是select() 其實...

鐵人賽 AI & Data DAY 3

技術 [ Day 3 ] - Pyspark | 介紹 - DataFrame篇 - Data Overview

上一篇簡述了5個讀取資料的方法,是不是開始迫不及待的想要馬上開始進行Data的操作啦先別急先別急,在我們開始實際針對DataFrame 進行操作之前, 先來看看...

鐵人賽 AI & Data DAY 2

技術 [ Day 2 ] - Pyspark | 介紹 - DataFrame篇 - Create DataFrame

啊,忽然不知不覺就是第二天挑戰了,但是腦子還是一片混亂, 所以我們還是就來簡單説説作為一個資料工程師,在胡搞瞎搞馬上要入手時,第一個該開始的地方Create(至...

鐵人賽 AI & Data DAY 1

技術 [ Day 1 ] - Pyspark | 介紹 - 什麼是Pyspark?

前言 1. What is Pyspark ? PySpark 顧名思義,也就是Python 的一個Spark Library,主要是利用Python語法結合S...

鐵人賽 AI & Data DAY 26

技術 Day26 Stepstone Posting 達石職缺

# 載入所需套件 import the packages we need import pandas as pd import numpy as np im...

鐵人賽 AI & Data DAY 23

技術 Day23 Airbnb in Berlin 4/5 listings analysis 柏林Airbnb 4/5 蛋黃區房源分析

昨日(Day22)的文章中,先以低排放區郵遞區號篩選取出房源列表後排序,取房源數量最多的前十名(主要是柏林占地太大,Airbnb上劃分成了133個區,加上交通因...

鐵人賽 AI & Data DAY 21

技術 Day21 Airbnb in Berlin 2/5 listings overview 柏林Airbnb 2/5 房源概述

今天從Inside Airbnb下載的資料(listing.csv),針對德國柏林地區的Airbnb房源初步分析。 The data (listing.csv)...

鐵人賽 AI & Data DAY 18

技術 Day18 Categorical Data 2/2 counting and feature hashing 類別型特徵 2/2 計數編碼與特徵雜湊

計數編碼 如果類別型特徵的目標值與類別筆數呈相關,可將筆數本身當作特徵,例如:自然語言處理中,字詞的計數編碼稱為詞頻,是自然語言處理中很重要的特徵。 Count...